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Алгоритмичне забезпечення розподлених баз даних 


В данной статье рассмотрены основные два алгоритма, используемые в построении распределённых баз данных. 
Описана структура и принципы работы генетического и эвристического алгоритма и приведены наглядные 
примеры воплощения их в процессе создания РБД. Внедрение в работу РБД подобных алгоритмов значительно 
автоматизируют и повышают эффективность работы каждого процесса и всей базе данных в целом. 
Ключевые слова: распределённые базы данных, базы данных, алгоритмы, 
программирование, генетический алгоритм, эвристический алгоритм. 
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Кеумог@5$: Ч15тЬщеа джаБазез, Чабафазез, а1>огИитз, ргостатите, зепейс а|еогИйт, 

Беит15Яс а[оогИбт. 


В дан статт! розглянуто основн! два алгоритми, використан! в побудов! розподлених баз даних. 
Описана структура 1 принципи роботи генетичного 1 евристичного алгоритму 1 наведен! наочн! 
приклади втлення 1х в процес! створення РБД. Впровадження в роботу РБД под!бних алгоритмв 
значно автоматизують 1 шдвищують ефективн!сть роботи кожного процесу 1 вс1й бази даних в Шлому. 
Ключов! слова: розпод1лен! бази даних, бази даних, алгоритми, програмування, 

генетичний алгоритм, евристичний алгоритм. 


Введение 


Создание распределенных информационных систем является весьма актуальной 
задачей. Это связано с возрастающими потребностями в приложениях. Увеличиваются 
требования к оперативности и своевременности информации. Управление информацией 
происходит с помощью систем управления базами данных (СУБД). Для достижения 
высокой производительности распределенных приложений, работающих с базами данных, 
необходимы эффективные методы проектирования распределенных баз данных (РБД). 

В статье рассмотрен кратко цикл проектирования РБД, показана сложность 
решаемой задачи и применимость генетических алгоритмов для решения поставлен- 
ной задачи. 
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Цель работы. Целью работы является разработка методов проектирования рас- 
пределенной базы данных, которые описывают способ разбиения централизованной БД 
на фрагменты и размещения полученных фрагментов в узлах заданной вычислительной 
сети (ВС). На основании полученных методов необходимо создать алгоритмы автомати- 
зированной системы, результатами работы которой, помимо схем фрагментации и разме- 
щения БД, будут рекомендации по повышению эффективности обработки запросов к РБД. 


Проектирования РБЬД 


Состоит из двух фаз: начальное проектирование и репроектирование. В большинст- 
ве случаев под начальным проектированием понимают фрагментацию БД и размещение 
фрагментов по узлам вычислительной сети (ВС). С течением времени возможно ухудше- 
ние производительности приложений, работающих с РБД, вызванное изменениями в 
инфраструктуре распределенной среды (ИРС). Под инфраструктурой понимаются физи- 
ческие и логические параметры функционирования системы, а именно транзакции и их 
частоты, топология ВС, характеристики узлов ВС ит.д. 

Изменения ИРС могут быть двух типов: физические и логические. Возможны 
три сценария репроектирования РБД: корректирующее, превентивное и адаптивное. 

Сложность решаемых задач. Задача проектирования РБД формулируется так: 
для данной логической схемы БД, множества запросов и конфигурации ВС описать 
схему фрагментации, схему размещения фрагментов и стратегии исполнения каждого 
запроса таким образом, чтобы оптимизировать целевую функцию. 

В [1], [2] показано, что оптимальные алгоритмы фрагментации и размещения 
данных являются МР-трудными, т.е. с ростом размерности задач их вычислительная 
сложность растет экспоненциально. 

При формировании стратегии исполнения реляционного запроса необходимо при- 
нять решения о способе и порядке выполнения операций соединения (]011) отношений, 
а также об используемых методах параллельной обработки. Рассматриваемые решения 
приведены в табл. 1. 


Таблица 1 — Количество вариантов исполнения запроса 


Решение Количество вариантов 
> 


_ Узел, в котором производится операция | 
(и)! 


Общее количество возможных стратегий исполнения запроса равно произведе- 
нию количества вариантов каждого решения. Например, для сети из 4-х узлов и за- 
проса, в котором используются 5 фрагментов, каждый из которых имеет 2 реплики, 
существует почти 16х 106 возможных вариантов. 

Эвристические алгоритмы. Для решения МР-полных задач применяются эв- 
ристические алгоритмы, которые уменьшают вычислительную сложность и позволяют 
получить близкое к оптимальному решению. Существуют следующие типы эвристи- 
ческих моделей: 

— модель слепого поиска, которая опирается на так называемый метод проб и 
ошибок; 
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— лабиринтная модель, в которой решаемая задача рассматривается как лаби- 
ринт, а процесс поиска решения - как блуждание по лабиринту; 

— структурно-семантическая модель, которая считается в настоящее время наибо- 
лее содержательной. Она отражает семантические отношения между объектами, со- 
ставляющими область задачи. 

В [3] отмечено, что для решения задач кластеризации и компоновки наиболее 
успешно применяются генетические алгоритмы (ГА). В ГА любое решение задачи 
синтеза представляется хромосомой, состоящей из генов. Значениями генов являются 
значения проектных параметров. Направленный перебор решений осуществляется с 
помощью генетических операторов выбора родителей, кроссовера, мутации, селекции, 
переупорядочения. 

Сначала формируется исходное поколение, состоящее из © хромосом. Размер 
поколения выбирается таким образом, чтобы в достаточной степени был представлен 
набор существующих решений. Например, поколение из 100 хромосом обычно достаточ- 
но для того, чтобы осуществить поиск среди 107 доступных решений. Хромосомы оце- 
ниваются с использованием функции приспособленности. 

Далее случайным образом среди хромосом данного поколения выбираются пары 
родителей, причем вероятность выбора хромосом с лучшими значениями функции 
приспособленности должна быть выше. Следующее поколение образуется (селекти- 
руется) из © перспективных дочерних хромосом, являющихся результатом ряда 
операций кроссовера. Кроссовер заключается в разрыве двух родительских хромо- 
сом и рекомбинировании образовавшихся хромосомных отрезков. Мутации, т.е. слу- 
чайные изменения генов, происходят с заданной вероятностью и служат для исклю- 
чения застревания поиска в ограниченном подпространстве. Разновидности генети- 
ческих операторов и их сочетаний порождают множество ГА, описание которых 
можно найти в [4]. 

Применение генетических алгоритмов. Задача проектирования РБД форми- 
руется тремя №Р-полными взаимозависимыми задачами, т.е. входными данными для 
следующей задачи является решение предыдущей. Таким образом, в методе получе- 
ния проекта РБД, близкого к оптимальному, целесообразно применять вложенные 
генетические алгоритмы. Подходящий алгоритм для такой задачи выглядит следующим 
образом [5]. 

Для каждого отношения К на основании запросов определяется набор минималь- 
ных фрагментов. Каждый минимальный фрагмент характеризуется множеством мин- 
терм предикатов и группой атрибутов. 

После этого формируется хромосома, описывающая размещение фрагментов на 
узлах ВС. Если фрагмент размещен в узле, то в соответствующую ячейку ставится 1, 
в противном случае 0. Структура хромосомы приведена в табл. 2. 


Таблица 2 — Структура хромосомы схем фрагментации и размещения 


Узлы\ 
г Атрибуты Атрибуты Предикаты 


БИ С О СО СО О И 
Е С СО СООО СО О СО 
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Для удовлетворения свойства полноты в каждой колонке должна быть хотя бы 
одна единица. Каждому атрибуту и предикату назначено значение мощности: для 
атрибутов мощность определена на основании типа данных, для предикатов — селек- 
тивности. На основании мощности определяется количество возвращаемых запросом 
данных. 

Для каждой хромосомы из сформированного поколения схем фрагментации и 
размещения запускается вложенный генетический алгоритм, направленный на полу- 
чение оптимальной стратегии исполнения запросов. Хромосомы вложенного алго- 
ритма сформированы из решений, принимаемых при исполнении запроса. Функцией 
приспособленности вложенного алгоритма является критерий оптимальности РБД. 
После определенного количества поколений значение функции приспособленности 
лучшей хромосомы из вложенного алгоритма используется как оценка функции 
приспособленности внешнего алгоритма. Комбинация хромосом из внешнего и 
вложенного алгоритмов полностью описывают проект РБД. 

В разрабатываемом программном обеспечении генетический алгоритм реали- 
зован следующим образом (представлен главный цикл Генетического алгоритма 
реализуемый в программе). 


// инициализация 
ш] зоаНопз = пе шп]; 
Гог (ШЕ1= 0; 1 < п; 1+) зошйоп$[1] = гпд.М№ех(32); 
Агтау.Зог(зо[ао15); 


// главный цикл 


У*ППе (зо[авоп$ [п - 1] <31) 


{ 
// отбор 


шЕрагепе 1 = зовоп$ [тпд.Мех((п)], рагеп = зо[аНопз[тп4.Мехп)]|; 


// рекомбинация 
шетазк = (1 << гпд.Мех(5)) - 1; 


шЕсЬИА = рагепЕ 1 & тазК | рагеп2 & -—та$К; 


// мутация потомка 
сВИА ^= 1 << 119д.М№х(10) & 31; 
1 (сВПА > зоаЯоп$[0]) // потомок лучше самого плохого? 


{ 


зоНопз$[0] = сВ1а; // меняем самого плохого 


Аттау.Зог(зо[о1$); 
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Заключение 


У людей, пользовавшихся генетическими алгоритмами, часто создается впечат- 
ление, что они неэффективны. Но, на наш взгляд, виновата не генетическая идея, а 
способ ее реализации. Генетическая модель представляет собой множество особей. 
Обычно особь — это кортеж значений переменных задачи. Количество информации, 
которое может хранить такая модель — не более чем двоичный логарифм от коли- 
чества особей (это при отсутствии клонов в популяции). А количество информации в 
задаче — это двоичный логарифм всех возможных комбинаций значений переменных. 
Накопление информации позволяет экспоненциально увеличить эффективность алго- 
ритмов, так как экспоненциально снижается количество возможных вариантов в «прост- 
ранстве поиска». А генетический алгоритм этого не делает, поэтому он в общем случае 
и не эффективен. 

Основной перспективой исследования распределённых баз данных является: 

1. Отход от ограничений в количестве хранимой информации. 

2. Более надёжная система хранения данных, так как информация находится на 
нескольких сетевых серверах. 

3. Гибкая система работы с другими программами. 

В статье рассмотрен жизненный цикл проектирования РБД и описаны его этапы. 
Сформулирована задача проектирования РБД и оценена ее сложность. Обоснован 
выбор генетических алгоритмов для решения поставленной задачи и предложен 
подход, позволяющий учесть взаимозависимость этапов проектирования. 
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КЕ5ОМЕ 


Е. СпитасйенКо, 5. 5. Хакйагоу 
Рьтчфшеа РаюБа5ех А!еогийтс Ргоутя 


Сштеп у а[1о$Ё аП оЁ огоаптайоп$ изе дабаБазез (ОВ) 1есбпо|о1е$. шсгеазше 
сотрИехЦу оЁР шеап$ шеазигие, сотрийпе ап@ ргезепипе Фе шЮюппаНоп ®еу Вауе 
шсгеазше 4етап4$ оп тоге ап4 тоге шогтайоп сопго| аз а гезий. К 1еа4$ ОВ $17е$ © 
ехсее4 сепаПте зузетз рвуз1са[ ШИ, Физ, десепаПтаНоп ргосеззез ап4 сгеайпе 
ФзиТЬие Чабабазез Бесоте тоге ппроцапё. То сеё ей ргодаснуйу ог 9415ит1ощеа 
аррИсайоп$ орегайпе ул 415915 ще4 даёаБазез Шеу пее4 еНесйуе а!еотИит$ апа ООВ 
ргодесйпе тео4$. 

шт 5 агасе смо Баз1с а!еогИбт$ зо[Уше Фе ЧазК аге ргезеще4. Сепейс а1еотИт 
Фае Бе]рз и$ © зо]уе Ше 1азК 15 дезсибе ш 4еаПз. №5 а]5о зВо\т Фе Моск Нот 
ргостат со4е уТеге ЧтесЙу сепейс а1оотИт 1$ геа|7е4 у1заПу. 


Статья поступила в редакцию 01.10.2012. 
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